我们提出了一个新颖的框架概念,以分析在预训练的语言模型中学习的潜在概念如何编码。它使用聚类来发现编码的概念,并通过与大量的人类定义概念对齐来解释它们。我们对七个变压器语言模型的分析揭示了有趣的见解:i)学习表示形式中的潜在空间与不同程度的不同语言概念重叠,ii)ii)模型中的下层以词汇概念(例如附加物为附加物)为主,而却是核心语言概念(例如形态学或句法关系)在中间和更高层中更好地表示,iii)一些编码的概念是多方面的,无法使用现有的人类定义的概念来充分解释。
translated by 谷歌翻译
尽管在理解深度NLP模型中学到的表示形式以及他们所捕获的知识方面已经做了很多工作,但对单个神经元的关注很少。我们提出了一种称为语言相关性分析的技术,可在任何外部特性中提取模型中的显着神经元 - 目的是了解如何保留这种知识在神经元中。我们进行了细粒度的分析以回答以下问题:(i)我们可以识别网络中捕获特定语言特性的神经元子集吗? (ii)整个网络中的局部或分布式神经元如何? iii)信息保留了多么冗余? iv)针对下游NLP任务的微调预训练模型如何影响学习的语言知识? iv)架构在学习不同的语言特性方面有何不同?我们的数据驱动的定量分析阐明了有趣的发现:(i)我们发现了可以预测不同语言任务的神经元的小亚集,ii)捕获基本的词汇信息(例如后缀),而这些神经元位于较低的大多数层中,iii,iii),而这些神经元,而那些神经元,而那些神经元则可以预测。学习复杂的概念(例如句法角色)主要是在中间和更高层中,iii),在转移学习过程中,显着的语言神经元从较高到较低的层移至较低的层,因为网络保留了较高的层以特定于任务信息,iv)我们发现很有趣在培训预训练模型之间的差异,关于如何保留语言信息,V)我们发现概念在多语言变压器模型中跨不同语言表现出相似的神经元分布。我们的代码作为Neurox工具包的一部分公开可用。
translated by 谷歌翻译
Natiq是阿拉伯语的端到端文本到语音系统。我们的语音合成器使用Encoder-Decoder架构引起了人们的注意。我们同时使用了基于TACOTRON的模型(Tacotron-1和Tacotron-2)和更快的变压器模型来从字符中生成MEL光谱图。我们将tacotron1与Wavernn Vocoder,Tacotron2与WaveLow Vocoder和ESPNET变压器与平行波甘gan vocoder串联,以从频谱图合成波形。我们使用了两个声音的内部语音数据:1)中立的男性“ hamza” - 叙述一般内容和新闻,以及2)表现力的女性“ Amina” - 叙述孩子的故事书来训练我们的模型。我们的最佳系统的平均平均意见评分(MOS)分别为Amina和Hamza的平均意见分别为4.21和4.40。使用单词和字符错误率(WER和CER)对系统的客观评估以及实时因子测量的响应时间有利于端到端体系结构ESPNET。 NATIQ演示可在线上https://tts.qcri.org提供
translated by 谷歌翻译
深层神经网络在各个领域的增殖已经增加了对这些模型的解释性的需求。沿着这条线进行的初步工作,调查了这种调查的论文集中在高级表示分析上。然而,最近的工作分支集中在这些模型中分析神经元的更详细水平上的可解释性。在本文中,我们调查了神经元分析所做的工作,包括:i)在网络中发现和理解神经元的方法,ii)评估方法,iii)主要发现,包括神经元分析已解散的跨架构比较,iv)神经元的应用。探索:控制模型,域适应等,v)关于开放问题和未来研究方向的讨论。
translated by 谷歌翻译
静态嵌入的后处理已成为提高其在词汇和序列级任务上的性能。但是,在上下文化嵌入的后处理是一个研究不足的问题。在这项工作中,我们质疑从不同训练的语言模型获得的上下文化嵌入的后处理的有用性。更具体地说,我们使用Z分数,Min-Max归一化以及使用全而top方法来删除顶部原理组件,将单个神经元激活标准化。此外,我们将单位长度标准化应用于单词表示。在各种预训练的模型集中,我们表明,在表示两个词汇任务(例如单词相似性和类比)和序列分类任务的表示后处理中存在重要信息。我们的发现提出了有关使用上下文表示表示的研究研究的有趣点,并建议在应用程序中使用Z分数归一化作为要考虑的重要步骤。
translated by 谷歌翻译
基于变压器的NLP模型是使用数亿甚至数十亿个参数训练的,从而限制了其在计算受限环境中的适用性。尽管参数的数量通常与性能相关,但尚不清楚下游任务是否需要整个网络。在最新的修剪和提炼预培训模型的工作中,我们探索了在预训练模型中放下层的策略,并观察修剪对下游胶水任务的影响。我们能够修剪Bert,Roberta和XLNet型号高达40%,同时保持其原始性能的98%。此外,我们证明,在大小和性能方面,您的修剪模型与使用知识蒸馏的型号相提并论。我们的实验产生有趣的观察结果,例如(i)下层对于维持下游任务性能最重要,(ii)某些任务(例如释义检测和句子相似性)对于降低层的降低和(iii)经过训练的模型更强大。使用不同的目标函数表现出不同的学习模式,并且层掉落。
translated by 谷歌翻译
我们考虑无上行赠款非正交多访问(NOMA)中的多用户检测(MUD)问题,其中访问点必须确定活动互联网(IoT)设备的总数和正确的身份他们传输的数据。我们假设IoT设备使用复杂的扩散序列并以随机访问的方式传输信息,按照爆发 - 距离模型,其中一些物联网设备以高概率在多个相邻的时间插槽中传输其数据,而另一些物联网设备在帧中仅传输一次。利用时间相关性,我们提出了一个基于注意力的双向长期记忆(BILSTM)网络来解决泥浆问题。 Bilstm网络使用前向和反向通过LSTM创建设备激活历史记录的模式,而注意机制为设备激活点提供了基本背景。通过这样做,遵循了层次途径,以在无拨款方案中检测主动设备。然后,通过利用复杂的扩散序列,对估计的活动设备进行了盲数据检测。所提出的框架不需要对设备稀疏水平和执行泥浆的通道的先验知识。结果表明,与现有的基准方案相比,提议的网络的性能更好。
translated by 谷歌翻译
树皮甲虫暴发会极大地影响世界各地的森林生态系统和服务。为了制定有效的森林政策和管理计划,至关重要的是对树木的早期发现至关重要。尽管树皮甲虫的侵扰存在视觉症状,但考虑到冠状叶子变色的树冠和非同质性,这项任务仍然具有挑战性。在这项工作中,提出了一种基于深度学习的方法,以有效地对单个树级别的树皮甲虫攻击的不同阶段进行分类。所提出的方法使用视网膜架构(利用预萃取良好的特征提取主链进行树冠检测)来训练浅子网络,以对无人机(无人驾驶汽车)捕获的图像的不同攻击阶段进行分类。此外,检查了各种数据增强策略以解决类不平衡问题,因此,选择仿射转换是为此目的最有效的。实验评估通过达到98.95%的平均准确性来证明该方法的有效性,使基线方法的表现高约10%。
translated by 谷歌翻译
在自然界中,动物的集体行为(例如飞鸟)由同一物种的个体之间的相互作用主导。但是,对鸟类物种中这种行为的研究是一个复杂的过程,即人类无法使用常规的视觉观察技术(例如自然界的焦点采样)进行。对于鸟类等社会动物,群体形成的机制可以帮助生态学家了解社交线索及其视觉特征随着时间的流逝(例如姿势和形状)之间的关系。但是,恢复飞行鸟类的不同姿势和形状是一个极具挑战性的问题。解决此瓶颈的一种广泛的解决方案是将姿势和形状从2D图像提取到3D对应关系。 3D视觉的最新进展导致了关于3D形状和姿势估计的许多令人印象深刻的作品,每项作品都有不同的利弊。据我们所知,这项工作是首次尝试概述基于单眼视觉的3D鸟重建的最新进展,使计算机视觉和生物学研究人员概述了现有方法,并比较其特征。
translated by 谷歌翻译